我来科普下：什么是置信区间? 为什么置信区间非常重要?

查看原文

其他

我来科普下：什么是置信区间? 为什么置信区间非常重要?

Original 郑老师医学论文与统计分析 2021-08-12

收录于话题

#临床试验写作规范

7个

医学研究，特别是随机对照试验，置信区间非常重要。但它在中文论文文献中被长期忽视，因而我今天特地来科普下。

统计分析结果中，P值很重要。人人都爱P值！但光光这一“屁用”的值是不够的。我一直在说，统计分析报告，要效应值、P值、置信区间三者皆俱。

先举个例子：一项临床试验，研究对象是高血压患者，随机被分为两组，分别用药物联合运动锻炼（试验组）和药物（对照组）进行血压控制，对每人治疗前、后收缩压（mmHg）进行测量，剔除失访人群后，分别得到实验组和对照组血压下降值，比较两组人群血压下降值有无统计学差异。

在这个案例中，探讨联合干预相对药物干预的效果，要解决的的几个关键问题：

第一，到底有没有效果？

第二，有多大的效果？

第三，有效果的可信度高不高？

大多数中文论文只回答了第一个问题，也就是到底有没有效果。

比如采用两样本t检验来进行分析，如果存在着统计学差异，那么我们会说：试验组、对照组干预前后差值差异具有统计学意义（P=0.005）

但是这一统计结果没有回答干预措施到底有多大的效果。统计学效果指的是效应值。关于效应值，我在之前的文章写过了。希望大家在看本篇文章之前可以浏览下下面的推文。

@所有人：临床研究请报告效应值！什么是效应值?

在本例研究中，效应值是4.70 mmHg。

但是光报告效应值还不够，我非常强烈建议同时报告效应值的置信区间，一般是95%的置信区间。

1. 什么是95%置信区间

置信区间，英文是Confidence Interval ，缩写是 CI，所以95%置信区间，又称为95%CI，它是关于总体参数不确定性的描述。

那么什么是总体参数呢？说来话长~~~

统计学是抽样研究，通过抽取一定数量的样本来开展分析。比如，我想了解所有人服用高血压药物的疗效。但是，我总不能所有人都调查一番，一般是抽取少量人，比如300人，询问他们高血压服用后血压下降水平。接着，经统计发现300人血压平均下降20.5mmHg。这个20.5我们称之为样本的信息，或者专业术语是统计量。但是20.5mmHg不全是我想要的，我想知道所有人服用高血压药物后的疗效是多少。

于是需要进一步分析，根据20.5 mmHg的信息去猜总体的信息，总体的信息就是参数。

但是猜总体，能够猜得准吗？猜不准！统计分析只能猜个大概！

于是，猜出总体的过程中，诞生了两个同出一源的概念，P值和置信区间。

首先是P值。对于非统计专业人士来说，P值可以认为两组均数总体上没有差异的概率（注意：这是不太正确的说法，但是对于非统计专业人士来说，这样理解没问题）。比如，试验组、对照组干预前后差值差异具有统计学意义（P=0.005），意味着，疗效没有差别的概率不到千分之五！所以我们认为有差别。

因此，这个P值其实是一个粗暴、武断的结论，它只回答了"到底有没有差别"这个问题。

而置信区间则告诉我们：它们差别是多大！

我刚才算出来两组差值是4.70，这意味着总体上两组疗效真的差4.7 mmHg吗？不是的，这个差别是样本的差别，总体还没有猜呢？

实际上，我们无法准确猜出总体的位置，只能猜总体大概的位置，所以总体值一般是一个区间。你看它的英文：Confidence Interval，意思是信心区间。因此，95%置信区间可以通俗地（但不完全正确）理解为总体均数有95%的可能性落在这一区间内（这个理解虽然但不完全准确，但对于非统计专业人士，这样理解没有毛病）。

因此，我们的结果就很丰富了:

•试验组、对照组干预前后差值差异具有统计学意义（差值4.70，95%CI1.48-7.91，P=0.005）

完美！

2. 置信区间能提供什么信息？

2.1 置信区间能够判定是否具有临床意义。置信区间是信息性的，因为它们显示了结果支持的效应大小的可能范围。置信区间给我们的非常重要的东西是指出，总体均数不是4.70！两组药物疗效虽然P<0.05，而显示有效，但并非就是是临床上的有效！

比如说临床上药物有效的界值是3mmHg（这个是我举例的，别信以为真），那么我这药物还值得推荐吗？

药物联合运动锻炼（试验组）相对单纯药物组的效果是4.70mmHg，95%CI1.48-7.91，说明效果最低是1.48，最高是7.91，而不是4.70mmHg。我们用工字型反映置信区间的位置。

从上图可以得到一些现象：

(1)工字型置信区间与差值0值线不交叉，则P值<0.05。

(2) 总体均数1.48靠近与0值线，而穿过临床意义的3.0线。显然总体均数很可能低于3.0 mmHg的。既然如此，我们不能说这个药物肯定有临床价值了！

所以置信区间给出的信息，等同于P值，而又远远大于P值，特别是置信区间的下限！

2. 2 当P<0.05 ，置信区间可帮助判定项目结论的可靠性！

有两个研究，甲和乙。经分析，两个研究P值都小于0.05，但结果是不同的。第一，可能差值差别不大，第二，置信区间不同。这里说明两件事情，第一，甲乙研究效应值相似，但是，乙研究的结论可靠性远不如甲。因为乙的置信区间较宽，意味着猜测总体效应猜得不准。

当碰到乙的情况，而你又算出来P值小于0.05时，千万别觉得你做出了大成果，也许，真的是你运气比较好。

2.3 当P值大于0.05，置信区间也可提示更多的信息。

下面这幅图，四个结果置信区间都包括了0直值线，意味着P 均大于0.05，但是各个置信区间带来的信息是有区别的。

图来自“ DOI: 10.5694/mja2.50926 ”

第一条，置信区间大部分位于正值范围内，虽然P 大于0.05，但该干预措施很可能是有效果的。没有统计学意义原因很可能是样本量不够，造成置信区间过宽。

第二条，置信区间位于临床意义-3、3线之间，意味着没有效果

第三条，置信区间大部分位于负值范围内，虽然P 大于0.05，也能说明干预效果不尽如人意。

第四条，显示出了结果的不确定性！

3. 什么时候需要计算置信区间

3.1现况调查，描述人群主要指标时

现况调查主要目的就是了解人群现状，了解总体人群现况。因此，描述均数和率的时候，非常有必要带上置信区间！

比如：279名护生护生患者安全感知总分71.42±10.91分(95%CI70.14-72.71) 。

又比如，2345名社区人群高血压患病率为35.5%（95%CI 31.1%-39.6%）。

3.2疗效和发病危险性、预后评价时

在RCT研究、病例对照研究和队列研究时，当我们计算率差、均差、OR、RR、HR，千万别忘记同时计算置信区间！像下面的结果，率差没有，置信区间也没有，是不行的。

结果显示：实验组总有效率为 83.3%（35/42），对照组总有效率为84.5%（38/45），两组比较差异无统计学意义（P＞0.05）

4. 总结

相对于P值来说，置信区间信息量更大，其江湖地位与P值相当。因此，我建议医学研究撰写统计报告时，必须同时报告效应值、P值和置信区间，让读者能够看到更多的信息。

计算不难，能做到锦上添花，何乐而不为呢？

更多信息

本公众号作为医学数据分析公众号，提供一些免费医学统计学学习资源下载，欢迎点击下载。

1.免费下载！统计初学者的福音！《妙趣横生统计学》视频，生动有趣的统计学！

2.医学研究样本量如何计算？原创高清教程视频来了，完全免费下载！

3.绝对值得收藏！原创高清SPSS 操作视频免费下载

4.推荐！这个流行病大神制作的公共卫生研究小工具，可以计算标准化率及置信区间

5.2006-2020中国卫生统计年鉴完整合集免费下载

6.全网最简单的SPSS教程，160页PPT学会SPSS统计分析！免费下载！

7.【免费】精制原创11讲短视频下载！零基础者2小时掌握医学统计学基本原理

特别提醒：上述资源每天限分享和下载一个。

培训通告

2021年，我们召集了一批富有经验的高校专业队伍，着手举行短期统计课程培训班。如果您有需求，不妨点击查看：

来参加吧，通俗易懂的统计培训课：R、Meta、重复测量以及量表分析

如果您觉得文章不错，

为我们打“call”,

点击“分享”吧的

清华女神，34岁的美女博士县长，辞职了

官方致电阿哲热度太大，爆瓜生日会！赵小磊连麦小白龙，撕X抖音！

薄公子低调成台湾女婿 23日已在台举办婚礼

卖房卖地干阿哲！哲旭混战人气票，干爆炸！宝哥嘲“反思哥”！易阳截流舞帝一哥，喊话阿哲！

警察殴打打人学生，舆论撕裂的背后